Tema 3: Escalas de Medida. Validación 
de Cuestionarios 


1.- Introducción. Escalas Básicas 


El cuestionario, como hemos dicho, es un instrumento diseñado para recabar 
información. Hemos desarrollado en los apartados anteriores diversos aspectos de su 
elaboración. En este tema trataremos los procedimientos para medir o cuantificar las 
respuestas obtenidas en una encuesta. El objetivo último de la medida es poder 
distinguir hasta qué punto un individuo posee una característica determinada. 
Dependiendo de la variable que esté siendo medida, los números que se le asignen 
tendrán propiedades diferentes. 


Babbie (1996) distingue entre inventario y escala en la forma en que se asignan las 
puntuaciones. Ambos procedimientos suponen instrumentos eficientes para la reducción 
de datos. Dicho de otra manera, cuando una variable precisa más de un ítem para su 
medición, realiza medidas compuestas, inventarios o escalas. Para dicho autor, un 
inventario se construye acumulando las puntuaciones que se asignan a atributos 
individuales, mientras que una escala asigna puntuaciones a patrones de respuesta, 
teniendo en cuenta la intensidad. 


Muchos son los autores que han definido lo que es medición, como por ejemplo: 

e Para Campbell (1928) es una asignación de números para representar 
propiedades de sistemas materiales no numéricos, en virtud de leyes que 
gobiernan esas propiedades. 

e Para Stevens (1951, pág. 1) es una 'asignación de números a objetos o eventos 
según ciertas reglas”. 

e Para Torgerson (1958, pág. 15) consiste en asignar números a sistemas que 
representan la propiedad objeto de medición. 

e Scott y Suppes (1958) lo definen como una asignación de números a objetos de 
modo que las relaciones reciban una interpretación numérica, exacta y 
razonable. 

e Lord y Novick (1968, pág. 16) lo definen como un procedimiento para asignar 
números a propiedades específicas de unidades experimentales de forma que 
caracteriza y preserva las relaciones específicas en el dominio conductual. 


En resumen, medir es cuantificar observaciones empíricas, consiste en definir el 
conjunto de números o valores posibles (sistema numérico) que se pueden asignar a un 
conjunto de objetos (sistema empírico) y en establecer la regla de asignación que hace 
corresponder sistema empírico y numérico. 


1.1.- Clasificación de Stevens 


El objetivo último de una investigación social, comercial o e cualquier otra índole, que 
se apoye en el uso de cuestionarios es la medida de una serie de variables de interés para 
el investigador. En la inmensa mayoría de las ocasiones las variables de interés se 
medirán mediante escalas. 


Es bien conocida la clasificación de Stevens (1951) entre escalas nominales, ordinales, 
de intervalo y de razón. La escala nominal sólo precisa la relación clara entre 
acontecimientos y categorías, ya que sólo sirven para nombrarlas o diferenciarlas. Las 
escalas ordinales permiten establecer relaciones de orden. En las escalas de intervalo 
hay equidistancia entre los valores consecutivos de la escala. Por último, la escala de 
razón exige la existencia de un cero absoluto, permitiendo basado en ello, la 
comparación entre razones. Más precisamente: 


Escala Nominal: es el nivel elemental de medida. Este tipo de escala consiste 
en clasificar en categorías a las personas, empresas, marcas, es decir, a los 
elementos que se estén estudiando o que son objeto de medida. Posteriormente, 
se asigna un número a cada una de las categorías y se considera que todos los 
elementos a los que se ha asignado el mismo número son cualitativamente 
idénticos en la variable de medida. Con las escalas nominales sólo se puede 
saber si un elemento es igual o distinto a otros elementos de la muestra. Las 
categorías tienen que cumplir dos requisitos para que estén bien diseñadas: 

o Que sean exhaustivas: esto significa que no puede haber ningún 
elemento que quede sin clasificar en alguna de las categorías que se han 
fijado. 

o Que sean mútuamente excluyentes: lo que significa que sólo se puede 
estar en una y sólo una de las categorías. 


Las escalas nominales son, especialmente, útiles en el caso de las variables 
cualitativas, funcionando los números asignados únicamente como etiquetas 
identificativas. Algunos ejemplos de variables cualitativas a las que se podría 
aplicar esta escala son las siguientes: profesión, nivel de estudios, sexo, edad, 
ingresos, comunidad autónoma del que procede el encuestado, estado civil, si 
una persona conoce o no una determinada marca, etc. 


Escala Ordinal: Este tipo de escala consiste en asignar a los elementos medidos 
un número que permita ordenarlos según la cantidad de variable que poseen 
desde el punto de vista del encuestado. Las escalas ordinales son útiles 
principalmente para variables cualitativas y aquí los números permiten afirmar si 
la cantidad de variable que posee un elemento es mayor o menor que la de otro, 
pero no dice cuanto mayor o cuanto menor, además de saber si un elemento es 
igual o distinto a otros elementos de la muestra. 


Un ejemplo típico es el de indicar el orden de preferencia de las marcas, la 
ordenación de las asignaturas de un curso por dificultad, por interés del alumno, 
de unos productos, etc. Con los números se va a poder decir que una marca es 
más o menos preferible a otra, pero no cuanto más o menos preferida. Otro 
ejemplo son los rankings de preferencia. 


Escalas de Intervalo: Las escalas de intervalo consisten en definir una unidad 
de medida y después asignar a cada elemento medido un número indicativo de la 
cantidad de variable que posee según la unidad de medida establecida. En las 
escalas de intervalo no existe el cero absoluto de forma que la diferencia entre 
los elementos no son constantes. Esta escala se utiliza para medir el grado de 
satisfacción y el grado de acuerdo o desacuerdo con unas determinadas 


afirmaciones. Este tipo de escala es adecuada para variables cuantitativas y se 
utiliza en gran medida para la evaluación de actitudes. En esta escala los 
números permiten afirmar si un elemento es igual o distinto a otros elementos de 
la muestra, si la cantidad de variable que posee un elemento es mayor o menor 
que la de otro, pero en este caso si nos dice cuanto mayor o cuanto menor. 


e Escalas de Razón: son las escalas de intervalos en las que existe propiamente 
un cero absoluto, es decir, la ausencia total de cantidad de variable. Este tipo de 
escalas están indicadas para variables cuantitativas. En esta escala los números 
permiten afirmar si un elemento es igual o distinto a otros elementos de la 
muestra, si la cantidad de variable que posee un elemento es mayor o menor que 
la de otro, pudiendo decir cuanto mayor o cuanto menor. La diferencia entre los 
elementos medidos son constantes y, además, se puede afirmar si la cantidad de 
uno es el doble, el triple, etc. que la cantidad de otro elemento. Algunos 
ejemplos de elementos a los que se podría aplicar escalas de razón son: los 
ingresos, la edad, los volúmenes de venta, etc. 


La información sobre una misma variable se podría obtener mediante cualquiera de las 
cuatro escalas vistas, si bien unas serán más adecuadas para algunos casos que para 
otros. Por su parte, la escala de medida determina qué tipo de análisis estadísticos son 
los apropiados. 


1.2.- Otras escalas. Escalas comparativas 


Aparte de las escalas básicas, existe una gran diversidad de escalas que se usan 
fundamentalmente en las Ciencias Sociales y del Comportamiento, que describimos a 
continuación clasificándolas en escalas comparativas y no comparativas (Barbero, 
1993; Dillon y cols., 1994; Miquel y cols., 1996). 


En las escalas comparativas, se pide al sujeto que compare un conjunto de estímulos con 
un punto de referencia dado. Un ejemplo de escala comparativa es la escala de 
Guttman: en ella, se aporta un patrón ideal, suponiendo que el que responde al nivel 
superior también ha respondido a los anteriores. Por su parte, las escalas no 
comparativas no se basan en la contrastación de los estímulos presentados. El sujeto 
asigna la puntuación que considera más adecuada. Varios son los procedimientos en la 
elaboración de escalas no comparativas. Los más relevantes son las escalas Likert, el 
diferencial semántico y la escala Thurstone. 


Como decimos, en las escalas comparativas se pide al entrevistado que compare objetos 
respecto de uno o varios estímulos ( por ejemplo compara marcas de coches respecto a 
ciertas características como diseño deportivo, fiabilidad, seguridad, etc.) Los resultados 
son de tipo nominal u ordinal, por lo que en ocasiones se les denomina escalas no 
métricas. Algunos tipos de estas escalas son: 


e Escalas de comparación por pares: En ésta el entrevistado ha de comparar dos 
objetos de acuerdo a alguna característica, obteniéndose en una primera 
instancia un orden en los objetos. Como ejemplo se dan los datos de la 
comparación por pares de cuatro marcas de coches en cuanto a su acabado. La 


tabla siguiente muestra el número de individuos de entre 20 que prefieren el 
primer coche al segundo del par mostrado. 
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A la vista de los datos podemos concluir que se prefiere e coche C4 sobre los 
demás, a continuación el C2, etc. Por otra parte, es notorio que la suma total de 
puntuaciones es de 120 ( =20x(4x3)/2, siendo n=4 el número de objetos a 
comparar), lo que quiere decir que en este tipo de escalas es conveniente no 
incluir demasiados objetos a comparar. Por ejemplo con n=10 se tendrían 45 
comparaciones por individuo, que en la mayoría de las ocasiones provocará 
cansancio o rechazo a la respuesta. 


Escalas de orden: En éstas se le pide a los individuos que ordenen el conjunto 
de objetos de acuerdo a una cierta característica. Siguiendo con ejemplo anterior, 
supóngase que los 20 individuos dan los siguientes órdenes de los coches con 
respecto a la característica “seguridad”. 
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Con base a estos datos, se efectúa un conteo del número de veces que cada 
marca aparece en un orden determinado. A continuación se obtiene una 
puntuación global para cada marca, la cual se calcula ponderando con mayor 
puntuación los órdenes primeros (4) que los segundos (3) y así sucesivamente. 
La tabla resultante es: 
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Por lo que podemos decir que según la segunda característica de ordenación, C1 
se prefiere a C2, ésta a C3, y esta última a C4. En cualquier caso, se observa 
también que a medida que el número de objetos aumenta, la escala se hace poco 
manejable en la práctica. 


Escala de sumas constantes: En esta escala se trata de que los individuos 
repartan una cantidad determinada (usualmente 100), entre distintas 
características sobre un mismo objeto, de forma que podamos determinar cierta 
graduación entre dichas características, de acuerdo a las observaciones para 
varios individuos. Consideremos como ejemplo la puntuación otorgada por 
cinco responsables de una investigación estadística a ciertas características 
deseables de los entrevistadores: 


Presencia física 
Formación Académica 
Formación específica 
Dispone vehículo propio 
Experiencia 
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Por lo que parece que los responsables prefieren la experiencia y la presencia 
física. 


Escala de Guttman: Es un modelo para el escalamiento conjunto de sujetos y 
estímulos: funciona asignando valores escalares a ambos: 
o El modelo se basa en la idea de que si un sujeto responde favorablemente 
a un estímulo determinado lo hará también a todos aquellos que estén por 
debajo de él en la escala resultante. 
o Para la obtención de la escala utiliza el método del escalograma. 
o Se obtiene una escala de entrelazamiento. Nivel ordinal. 


O 
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Para averiguar el grado de ajuste de unos datos al modelo se suele 
utilizar el Coeficiente de Reproductividad o el de Escalabilidad. 

A veces el análisis del escalograma se utiliza como técnica para el 
análisis de elementos. 

Se puede emplear para comprobar la unidimensionalidad de los datos. 


Los pasos para llevar a cabo el análisis del escalograma son: 


1. 


Di 


Establecer una forma para medir la cuantía del error en las distintas 
ordenaciones de filas y columnas. 

Ordenar los datos de manera que se ajusten lo más posible a una escala 
perfecta. 

Ante dos posibles ordenaciones se elige la que proporcione menos 
errores. 

Evaluar el grado de aproximación de los datos empíricos al modelo. 

Si el coeficiente de reproductividad es menor que 0,90, se considera que 
no hay un buen ajuste. 

Asignación de puntuaciones a los sujetos y a los estímulos. 

Elaborar la escala definitiva. 


1.3.- Escalas no comparativas 


En este tipo de escalas no se establecen comparaciones, sino que cada objeto se 
clasificará de acuerdo a una graduación que se establecerá. Estas escalas también se 
denominan métricas puesto que en dicha graduación se establecerá una medida sobre el 
objeto. Las escalas de este tipo más utilizadas en la práctica son: 

Escalas continuas: Para cierta característica de un objeto, se trata de determinar 
una posición entre dos extremos antagónicos, que están unidos por una línea. 
Por ejemplo, sobre la cuestión ¿Es fiable la marca del coche X?, establecer una 
posición en la escala: 





Acuerdo Desacuerdo 


O bien 


Acuerdo 





Desacuerdo 


Escalas de ítemes. Estas escalas son muy comunes en la práctica de las 
encuestas y se construyen por medio de un número limitado de respuestas, que 
se muestran mediante números o palabras, que generalmente marcan cierto 
orden o graduación. Por ejemplo: 


Acuerdo 1 23 45 6 7 Desacuerdo 


Escalas multi-ítems. El objeto de estas escalas es la medición simultánea de 
varias características sobre un mismo objeto. Como ejemplo podríamos 
plantearnos medir el ambiente profesional en el que desenvuelven los 
trabajadores de una empresa. Para ello, habremos de medir varias características 
simultáneamente como pueden ser: “satisfacción con el trabajo desempeñado”, 
“disposición de los medios para el desarrollo del trabajo”, “relación con los 
compañeros”, etc. Las escalas multi-ítemes más conocidas son: 

o Escala de Likert: Se construye con un conjunto de proposiciones 
positivas o negativas en las que los sujetos han de enjuiciar cierta 
característica o aspecto de un tema. Para ello han de indicar su grado de 
acuerdo o desacuerdo en una escala graduada con 5 a 9 categorías, 
siendo lo habitual de 5 a 7. El que el número de categorías sea impar 
permite al entrevistado una opción central que se interpreta como 
indiferencia, o bien que éste no tome partido. Sobre este tipo de escala 
volveremos en el siguiente punto, analizando el procedimiento de 
construcción de la misma ya que es una de las más utilizadas en la 
práctica. 

o Escala de Osgood: También denominada de diferencias semánticas, se 
construye primariamente por medio de adjetivos “bipolares”, de forma 
que el sujeto seleccione una posición entre unas siete (normalmente entre 
5 y 9) que se dejan entre cada polo. Para su confección se suelen atender 
las siguientes fases: 

= Generar los adjetivos bipolares con sus posiciones intermedias, 
teniendo cuidado en que la secuencia de adjetivos no tengan 
siempre la misma dirección para no condicionar la respuesta. Por 
ejemplo en una investigación sobre el profesorado: 
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= A continuación los individuos marcarán una posición en la escala 
según su parecer. 


= Puesto que todas las posiciones centrales tienen carácter neutro, 
se irán eliminando del conjunto aquellos ítemes que tengan un 
número de puntuaciones centrales muy elevado. También se 
eliminarán los que tengan una correlación muy baja con el resto. 

=  Sise establece la escala para la comparación de varios sujetos se 
pueden establecer “perfiles” entre éstos, de acuerdo con el 
siguiente ejemplo: 
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Según el ejemplo, aunque el profesor A atiende las dudas y es puntual, es 
menos cordial en el trato que el profesor B. Por otra parte, atendiendo a 
las puntuaciones en las que el polo negativo es (-3) y el positivo (+3), 
tenemos: 

Profesor A: (+3) + (-2) + (2) + (+2) = 1 

Profesor B: (-2) + (+2) + (+1) + (3) = -2 











o Escala de Stapel: Es parecida a las anteriores, salvo que las escalas se 
expresan con números y se suelen establecer 10 categorías en vez de 7 lo 
que hace que el individuo tome partido por la opción positiva o negativa. 
Por otra parte, la escala se construye sólo con un adjetivo y no con una 
frase bipolar. Siguiendo con el ejemplo: 





5 4 3 2 -1 Puntualidad +1 +2 +3 +4 +5 
e igual con el resto. 


3.- Análisis de items 
3.1.- Análisis Primarios 


Como hemos visto, los ítems son definiciones diversas de una característica que 
queremos medir. Es evidente que debemos comprobar que cada ítem mide lo mismo 
que los demás, y que por lo tanto es “sumable” en una puntuación total que 
supuestamente mide dicha característica. 


Básicamente lo que se comprueba es que las puntuaciones obtenidas en los distintos 
ítems referentes a una misma característica, tienen una alta correlación entre ellos, y por 


tanto se refieren a lo mismo, y si por otra parte, éstos pueden diferenciar a los sujetos, es 
decir, si discriminan adecuadamente. 


Los procedimientos más utilizados para abordar estos análisis son: 
e Contraste de medias en cada ítem de los dos grupos con puntuaciones totales 
más altas y más bajas. 
e Lacorrelación ítem-total. 


Hoy en día la correlación ítem-total es el método más sencillo puesto que se encuentra 
ya programada en paquetes informáticos como SPSS. Con ambos métodos se obtendrán 
resultados parecidos. 


El proceso de análisis de una escala no se ciñe exclusivamente en localizar y eliminar 
items con poco poder discriminador. También aborda otros aspectos como la posible 
división de la escala en subescalas que miden aspectos diferenciados de la escala 
general y de uso e interpretación independientes. Para esto último, se pueden aplicar 
otras técnicas, como el análisis factorial, que pueden revelar estructuras subyacentes en 
la escala general. 


El siguiente diagrama muestra el proceso de análisis de ítems: 
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A continuación pasamos a describir las técnicas comentadas, haciendo mención de que 
en un específico se describirá como se realiza con el programa SPSS. 


e Contraste de medias en cada ítem de los dos grupos con puntuaciones 
mayores y menores en el total de la escala: 

o Ordenamos a los sujetos de mayor a menor, según el total obtenido en 
toda la escala, y seleccionamos dos subgrupos: grupo superior, el 25% 
con total más alto, y grupo inferior, el 25% con puntuación total más 
bajo (el 50% central no se usa en este análisis). 

o Calculamos la media y la desviación típica en cada ítem de cada uno de 
los dos grupos, superior e inferior. 

o Contrastamos las medias de estos dos grupos mediante una t-Student. 


Esperaremos de todo este proceso que el 25% superior tenga una media 
significativamente más alta en cada ítem que el 25% inferior. Podremos concluir 
que los ítems que simultáneamente diferencian a los mismos sujetos están 
midiendo lo mismo. Prescindiremos de los ítems que no discriminan (al menos 
aquellos con valores desde no significativos), y si son muchos o demasiados los 
que discriminan (y esto sucede con frecuencia), podemos quedarnos con los mas 
discriminantes. 


En la elección definitiva de los ítems pueden intervenir además otros criterios, 
pero en cualquier caso debe estar claro su poder discriminatorio que a su vez nos 
confirma que los ítems miden básicamente lo mismo. 


e Correlación ítem-total: se trata de la correlación de cada ítem con la suma de 
todos los demás (o correlación de cada ítem con el total menos el ítem; suele 
denominarse correlación ítem- total corregida). Lo que deseamos comprobar es 
en que medida el puntuar el puntuar alto en un ítem supone de hecho obtener un 
total alto en el resto de la escala en todos los demás ítems. 


Estos coeficientes deben de ser al menos estadísticamente significativos (o 
distintos de cero en la población). Los ítems con una mayor correlación con el 
total (es decir, con la suma de todos los demás) son los que tienen más en común 
y por lo tanto podemos pensar que miden lo mismo que los demás. Los ítems 
con correlaciones no significativas o muy bajas (p.e. r<0.250) con respecto a las 
de otros items, los eliminaremos de nuestra escala. 


Lo que realmente nos interesa no es la correlación de cada ítem con e total, sino 
la correlación de cada ítem con la suma de todos los demás, lo que es bastante 
laborioso, a menos que se utilice un programa como SPSS. En el módulo 
correspondiente, el programa calcula: 


pue 


La correlación de cada ítem con el total. 

2. Se aplica después una formula correctora que convierte esta correlación 
ítem-total en la correlación ítem-total en la correlación ítem-total menos 
el ítem, que es la que nos interesa, de acuerdo a la expresión: 


70,0, 
a , con 
O 107 2070. 


T(r- 7 Correlación entre un ítem y el total menos ese ítem 
Tr = Correlación ítem-total 


O, y 0, Desviaciones típicas del ítem y el total 


Es importante aplicar esta fórmula correctora sobre todo cuando se trata de 
pocos ítems, porque en este caso la correlación ítem-total sobreestima la 
correlación ítem-total menos el ítem; si los ítems son muchos la diferencia entre 
aplicarla o no aplicarla suele ser muy pequeña. 


En la práctica es preferible utilizar este último procedimiento ya que ambos 
aportan una información semejante, y éste utiliza toda la información muestral, 
además de ser más cómodo (en el supuesto de que se utiliza un programa para su 
cálculo). 


3.2.- Fiabilidad 


Se dice que una medida es fiable cuando está libre de error aleatorio. También se dice 
que es fiable cuando al ser aplicada sobre la misma característica en distintos momentos 
es capaz de obtener la misma medida. La fiabilidad es una característica necesaria pero 
no suficiente para que una medida sea válida, es decir, una medida puede ser fiable pero 


no válida. 


En la comprobación de la fiabilidad de la escala vamos a fijarnos en cuatro puntos de 
importancia desigual, siendo los más importantes los dos primeros: 


1. 


Ze 
3. 


4, 


Búsqueda de una fiabilidad óptima eliminando los peores ítems (esto va a ser 
lo más importante). 

Valoraciones sobre la magnitud del coeficiente de fiabilidad. 

Estimaciones de la fiabilidad modificando el número de ítems (normalmente 
redactando nuevos ítems) 

Fiabilidad y número de respuestas. 


Para evaluar la fiabilidad hay distintos métodos: 


e Técnica de Test-Retest o de Pruebas Repetidas. Se trata de analizar la medida de 
la escala aplicada en momentos diferentes: 


MOMENTO1 | MOMENTO2 





Ttem1 Ttem1 
Ttem2 Ttem2 
Ttem3 Ttem3 


Ttem n ítem n 





Dentro de la encuesta se selecciona un grupo al cual se le pasa dos veces la 
encuesta. En este tipo de en hay un problema de aprendizaje, como 
recomendación se requiere un tiempo de tres semanas. 


e Consistencia Interna. Se trata de determinar si en conjunto los items se refieren a 
la misma cuestión. Para ello se utiliza el coeficiente a de Cronbach (si se trata de 
datos dicotómicos es equivalente al coeficiente KR20 de Kuder-Richardson). El 
coeficiente se define como: 





K = número de items 


20 


o? = varianza del las puntuaciones totales 


t 


suma de las varianzas de todos los ítems 


El coeficiente debe tomar valores mayores de 0,6 (o 0,8 para escalas ya usadas 
en la práctica, y adaptadas a nuevos estudios) para escalas con un número bajo 
de ítems. A continuación calcularemos el coeficiente eliminando cada uno de los 
ítems de la escala, para observar como se modifica el valor a global. Si el valor 
aumenta ostensiblemente eliminando algún valor, procederíamos a quitarlo de la 
escala. 


Hay que tener en cuenta que el coeficiente depende del número de ítems, de tal 
forma que será artificialmente mayor cuanto mayor sea el número de ítems, por 
lo que habrá que usarlo con cautela en estos casos. En definitiva, el proceso para 
evaluar la consistencia interna de la escala, será: 
1. Calcular el coeficiente de a. inicial con todos los ítems. 
2. Eliminar los peores ítems y volver a calcular a. . Repetir el proceso hasta 
quedarnos con el conjunto de los ítems que nos dan mayor fiabilidad. 
3. Si al eliminar ítems baja el valor a, damos por terminado el trabajo. Al 
final nos quedaremos con el conjunto de ítems que forme una escala con 
una consistencia interna óptima. 


Como resumen, un coeficiente razonablemente alto de fiabilidad es una 
condición necesaria pero no suficiente para afirmar que la escala construida 
mide un único rasgo bien definido (unidimensionalidad de la escala). En un 
apartado posterior usaremos otras técnicas para estudiar la unidimensionalidad 
de las escalas. 


3.3.- Validez 


Un instrumento de medida se dice válido cuando mide lo que debe medir. La validez 
está relacionada con el error sistemático en el sentido de que a menor error sistemático 
más válida es la medida. No obstante hay otras definiciones y consideraciones en cuanto 
a la validez, por ejemplo: 


Validez de contenido: también se llama Validez Facial y se refiere a si la 
medida recoge todos los aspectos de la característica. Por ejemplo: un examen 
de 20 temas y se pregunta únicamente uno. 

Validez de constructo: se trata de saber si los indicadores diseñados (ítemes) 
representan bien al fenómeno en estudio, por ejemplo, en la construcción de una 
escala. 

Validez de criterio: se trata de determinar si la escala es capaz de reflejar las 
relaciones entre las medidas de una variable y otras anticipadas por la teoría. 


Es conveniente tener en cuenta que no existe una prueba de validez en sentido estricto, 
pero si podemos tener datos y análisis que apoyen una determinada interpretación, 
avalen la utilidad del instrumento, etc. Con los estudios de validación pretendemos, 
sobre todo, dos finalidades que se apoyan mutuamente: 


Confirmar el significado previsto de la variable que pretendemos medir: se trata 
de verificar que la interpretación es correcta (si por ejemplo queremos medir la 
actitud frente al estudio, hemos de verificar que realmente es eso lo que 
medimos y no la inteligencia o el deseo de dar una buena imagen). Ester tipo de 
validez se denomina validez de constructo (o de rasgo). Confirmamos el 
significado comprobando hipótesis basadas en el mismo significado; podemos 
utilizar dos tipos de estrategias que se complementan: 

o Validez convergente, por ejemplo comprobando relaciones esperadas y 
plausibles ( positivas o negativas) con otras medidas referidas a dos tipos 
de variables: 

= Unas relaciones pueden ser con variables medidas por otros 
instrumentos que pretendidamente miden lo mismo ( si hacemos 
una escala de autoconcepto esperamos una correlación 
significativa con otras escalas de autoconcepto). 

= Otras relaciones pueden ser con instrumentos que miden otras 
cosas pero con las que esperamos (como hipótesis plausibles) que 
haya relación positiva ( como entre actitud hacia el estudio y 
calificaciones escolares) o negativa (como entre actitud hacia el 
estudio y ansiedad ante los exámenes). 

o Validez divergente: comprobando que el rasgo no tiene relación con 
otros con los que no esperamos que la tenga o que se diferencia de otros 
del mismo ámbito. 
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4.- Escalamiento Multidimensional (MDS) 


4.1.- Conceptos Básicos. Similaridades 


El escalamiento multidimensional, más conocido como MultiDimensional Scaling 
(MDS), tiene sus orígenes a principios de siglo XX en el campo de la Psicología. Surge 
al estudiar la relación que existía entre la intensidad física de ciertos estímulos con su 
intensidad subjetiva. El MDS es una técnica de representación espacial que trata de 
visualizar sobre un mapa un conjunto de estímulos (firmas, productos, candidatos 
políticos, ideas u otros artículos) cuya posición relativa se desea analizar. El propósito 
del MDS es transformar los juicios de similitud o preferencia llevados a cabo por una 
serie de individuos sobre un conjunto de objetos o estímulos en distancias susceptibles 
de ser representadas en un espacio multidimensional. El MDS está basado en la 
comparación de objetos o de estímulos, de forma que si un individuo juzga a los objetos 
A y B como los más similares entonces las técnicas de MDS colocarán a los objetos A y 
B en el gráfico de forma que la distancia entre ellos sea más pequeña que la distancia 
entre cualquier otro par de objetos. 


En la actualidad, el MDS puede ser apto para gran cantidad de tipos diferentes de datos 
de entrada (tablas de contingencia, matrices de proximidad, datos de perfil, 
correlaciones, etc.). El MDS puede ayudar a determinar: 

e Qué dimensiones utilizan los encuestados a la hora de evaluar a los objetos. 

e Cuántas dimensiones utilizan. 

e La importancia relativa de cada dimensión. 

e Cómo se relacionan perceptualmente los objetos. 


Existen otras técnicas multivariantes, como son el análisis factorial y el análisis cluster, 
que persiguen objetivos muy similares al MDS pero que difieren en una serie de 
aspectos. Sin embargo, la utilización de alguna de estas técnicas no supone que no se 
pueda utilizar el escalamiento multidimensional, sino que esta última técnica puede 
servir como alternativa o bien como complemento a las otras técnicas multivariantes. En 
definitiva, el MDS es una técnica multivariante que crea un gráfico aproximado a partir 
de las similitudes o preferencias de un conjunto de objetos. 


De modo general, podemos decir que el MDS toma como entrada una matriz de 
disimilaridades, A € M,,,, , donde n es el número de estímulos. Cada elemento 9, de A 


representa la disimilaridad (o similaridad según se considere) entre el estímulo ¡ y el 
estímulo j. 





A partir de esta matriz de disimilaridades, la técnica de MDS nos proporciona como 
salida una matriz de coordenadas X donde n, al igual que antes, es el número de 


nxm ? 
estímulos, y m es el número de dimensiones. Cada valor xi; representa la coordenada del 
estímulo 1 en la dimensión j. El procedimiento para obtener esta matriz es conocido 
como el algoritmo MDS básico y puede encontrarse en cualquier manual sobre el tema. 


A partir de esta matriz X se puede calcular la distancia existente entre dos estímulos ¡ y 
j, mediante cualquier definición de distancia: euclídea, euclídea ponderada, city-block, 
minkowski, etc. Estas distancias constituirán una matriz DeM,,,. Pues bien, la 
solución proporcionada por el MDS debe ser tal que exista la mínima diferencia entre la 
matriz de disimilaridades inicial Ay la matriz de distancias obtenidas D. A 
continuación, se tratará de determinar cómo de bueno es el ajuste considerado. Esta 
cuestión la analizaremos posteriormente. 


4.2.- Modelos de MDS 


Existen dos modelos básicos de MDS que son: el modelo de escalamiento métrico y el 
modelo de escalamiento no métrico. En el primero de ellos consideramos que los datos 
están medidos en escala de razón o en escala de intervalo y en el segundo consideramos 
que los datos están medidos en escala ordinal. 


Todo modelo de escalamiento parte de la idea de que las distancias son una función de 
las disimilaridades, es decir, d, = f (5, ). En el modelo de escalamiento métrico se 


parte del supuesto de que la relación entre las proximidades y las distancias es de tipo 
lineal: d, = a+b0,,. En el caso no métrico, no se propone una función deternimada sino 


que simplemente la función f preserve el orden (monótona) existente entre las 
disimilaridades (los veremos a continuación). 


El primer procedimiento de escalamiento métrico se debió a Torgerson (1952, 1958) 
quién se basó en un teorema de Young y Householder (1938), según el cual a partir de 
una matriz de distancias, D e M,,,, se puede obtener una matriz Be M,,, de productos 


escalares entre vectores. El procedimiento consiste en transformar la matriz de 
disimilaridades A en una matriz de distancias D- de tal forma que se cumplan las 
propiedades de distancia: 

1. No negatividad d, >0=d, 

2. Simetría di¡= di 

3. Desigualdad triangular d,, <d, +d,, 


Las dos primeras propiedades son muy fácilmente obtenibles, y no así la tercera. 
Cuando en efecto no se cumple la tercera, hemos de estimar una constante, tal que 
sumada a las disimilaridades permita que éstas cumplan esta tercera propiedad. Este 
problema se conoce con el nombre de “estimación de la constante aditiva”. 


Una vez obtenida la matriz De M se transforma en una matriz B de productos 


nxn ? 


escalares entre vectores mediante la siguiente transformación: 


1 1 n 1 n 
b, == (4, - di, —d;, +d;,),con d,, =24 y dí, 2 
j= i=1 


A continuación, se transforma la matriz B de productos escalares, en una matriz X, de 
coordenadas, tal que B=X-X”. 


En resumen el procedimiento métrico consiste en transformar: 
A (disimilaridades) en D (Distancias) en B (Productos escalares) en X (coordenadas) 


En el caso del modelo no métrico seguiremos los siguientes pasos: 
1. Transformación de la matriz de proximidades en una matriz de rangos, desde 1 
hasta (n (n - 1)/2. 
2. Obtención de una matriz X de coordenadas aleatorias, que nos da la distancia 
entre los estímulos. Comparación de las proximidades con las distancias, 
obteniéndose las disparidades (d A ). 


3. Definición del Stress: Stress = 








4. Minimización del Stress. 
Este ejercicio de minimización tiene carácter algorítmico, y tiene como fin obtener, 
como en el caso métrico una configuración cuyas distancias se aproximen, lo máximo 


posible a las disimilaridades iniciales. 


El mismo coeficiente Stress, será la medida de la bondad del ajuste obtenido, y se 
interpretará como: 


Stress Ajuste 


0,2 Pobre 
0,1 Regular 
0,05 Bueno 


0,025 Excelente 
0,0 Perfecto 


Otra medida que se suele utilizar es el coeficiente de correlación al cuadrado (RSO), que 
nos informa de la proporción de variabilidad de los datos de partida que es explicada 
por el modelo. Los valores que puede tomar oscilan entre O y 1, al ser un coeficiente de 
correlación al cuadrado. Valores cercanos a 1 indican que el modelo es bueno y valores 
cercanos a O indican que el modelo es malo. 


La mayoría de los paquetes estadísticos tienen implementados tanto los algoritmos para 
obtener soluciones con MDS así como las medidas para determinar si el modelo es 
adecuado o no. Esto se describirá con detalla en el tema dedicado a MDS con el paquete 
SPSS. 


4.3.- Validación con MDS 


Como comentamos en el apartado dedicado a la fiabilidad, ésta es una condición 
necesaria pero no suficiente para afirmar que la escala construida mide un único rasgo, 
esto es, la escala es unidimensional. 


El MDS permite representar puntos en un espacio de dimensión reducida, de forma que 
reproduzcan las distancias entre los objetos. Pues bien, consideraremos los ítems como 
los objetos a representar, de tal forma que cuantas más dimensiones se necesiten para su 
representación óptima, menor será la consistencia interna de los ítems, o dicho de otro 
modo, habrá más ítems discordantes con los demás. El siguiente gráfico aclara la 
disquisición anterior: 
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Dimensión 1 


En el gráfico podemos observar que hay ítems que están bastante más alejados que el 
resto, en una escala con 30 ítems. Un análisis de la correlación del ítem con el total 
revela que los siguientes ítems tienen correlación menor que 0,250: 2, 6, 9, 14, 20, 24, 
25, 27, 28, 30. Es evidente que el gráfico MDS reproduce esta bajas correlaciones en 
términos de mayor distancia entre los puntos, lo cual permite dar una pauta para 
desechar aquellos estímulos para mejorar la consistencia interna de la escala. 


La facilidad de su uso e interpretación ha determinado que el MDS se utilice como 
complemento o como alternativa a otras técnicas multivariantes como el Análisis 


Factorial, muy difundido, que necesitan supuestos distribucionales relativamente fuertes 
para ser aplicados. 


Entre las ventajas de utilizar el MDS en comparación con otras técnicas multivariantes 


están: 


Los datos en MDS pueden estar medidos en cualquier escala, mientras que en el 
Análisis Factorial deben estar medidos en escala de razón o intervalo. 

El MDS puede proporcionar soluciones para cada individuo, lo cual no es 
posible con el Análisis Factorial ni con el análisis cluster. 

En el MDS el investigador no necesita especificar cuáles son las variables a 
emplear en la comparación de objetos, algo que es fundamental en el Análisis 
Factorial y en el Análisis Cluster, con lo que se evita la influencia del 
investigador en el estudio. 

Las soluciones proporcionadas por MDS suelen ser de menor dimensionalidad 
que las proporcionadas por el análisis factorial (Schiffman, Reynolds y Young, 
1981). 

En MDS pueden ser interpretados directamente las distancias entre todos los 
puntos, mientras que en el análisis de correspondencias solamente pueden ser 
interpretadas directamente las distancias entre filas o bien entre columnas. 


